🤔Что делать, если в небольшом размеченном наборе сильно несбалансированные классы, но среди неразмеченных данных, возможно, есть представители миноритарного класса
Когда классы сильно несбалансированы, модель может вообще не научиться распознавать редкий класс — особенно если в размеченных данных он почти не представлен. Это особенно критично, если модель начинает обучение уже с перекосом в сторону большинства.
🛠Как с этим справиться
1. Усиливаем вклад миноритарного класса в функцию потерь — Используем взвешивание классов или focal loss, который автоматически усиливает вклад трудных примеров.
2. Применяем регуляризацию на неразмеченных данных — Например, consistency regularization, при которой модель должна давать стабильные предсказания при слабых искажениях входа.
3. Активный отбор редких примеров среди неразмеченного пула — Можно применять кластеризацию и отбирать для разметки точки из «редких» кластеров — это метод active cluster labeling.
4. Анализируем предсказания модели на неразмеченных данных — Если модель слабо уверена в каком-то сегменте — возможно, это и есть миноритарный класс. Такие точки можно приоритизировать для ручной разметки.
🤔Что делать, если в небольшом размеченном наборе сильно несбалансированные классы, но среди неразмеченных данных, возможно, есть представители миноритарного класса
Когда классы сильно несбалансированы, модель может вообще не научиться распознавать редкий класс — особенно если в размеченных данных он почти не представлен. Это особенно критично, если модель начинает обучение уже с перекосом в сторону большинства.
🛠Как с этим справиться
1. Усиливаем вклад миноритарного класса в функцию потерь — Используем взвешивание классов или focal loss, который автоматически усиливает вклад трудных примеров.
2. Применяем регуляризацию на неразмеченных данных — Например, consistency regularization, при которой модель должна давать стабильные предсказания при слабых искажениях входа.
3. Активный отбор редких примеров среди неразмеченного пула — Можно применять кластеризацию и отбирать для разметки точки из «редких» кластеров — это метод active cluster labeling.
4. Анализируем предсказания модели на неразмеченных данных — Если модель слабо уверена в каком-то сегменте — возможно, это и есть миноритарный класс. Такие точки можно приоритизировать для ручной разметки.
The seemingly negative pandemic effects and resource/product shortages are encouraging and allowing organizations to innovate and change.The news of cash-rich organizations getting ready for the post-Covid growth economy is a sign of more than capital spending plans. Cash provides a cushion for risk-taking and a tool for growth.
Unlimited members in Telegram group now
Telegram has made it easier for its users to communicate, as it has introduced a feature that allows more than 200,000 users in a group chat. However, if the users in a group chat move past 200,000, it changes into "Broadcast Group", but the feature comes with a restriction. Groups with close to 200k members can be converted to a Broadcast Group that allows unlimited members. Only admins can post in Broadcast Groups, but everyone can read along and participate in group Voice Chats," Telegram added.
Библиотека собеса по Data Science | вопросы с собеседований from fr